大榕树下·成长记 | 南科大骆家睿,从“计算机萌新”到“科研初探者”
他是2021NeurIPS组织
十亿级向量检索比赛冠军
也是数据库顶尖会议VLDB
收录论文的唯一本科生作者
从国际大赛到论文呈现
从技术方案到产品落地
他走出了一条自己的学术之路
他是致诚书院计算机科学与工程系
2019级本科生骆家睿
让我们一起走进
这位“日新”学子求学之路的闪光点滴
“回首三年,特别感谢一直以来在学业与学科竞赛上不断创新、突破的自己,昔日付出的恒心与毅力成为了如今奔赴未来的底气。”三年来,骆家睿一直专注于科研,并致力于科研成果转化,为企业的产品提供优化方案,让用户在使用过程中得以享受技术创新的便利。
01
在兴趣好奇的驱动下,
一头扎入大数据的怀里。
屡次debug(排错)到实现理想输出,是一件很有成就感的事。
骆家睿(左二)和同学们在图书馆学习讨论
“大一刚入学时我对很多专业都有一定的兴趣——计算机、金融、数学、化学......面对诸多选择,我一时也没有主见。”和所有初入南科大的大一新生一样,骆家睿需要在一年的通修课学习之后,选择未来的专业方向。经过一年时间的摸索,在听过各院系组织的专业介绍并且向导师咨询后,他将目光投向了计算机科学与工程系(以下简称“计算机系”)。
“我和编程的缘份是在大一的JAVA课上,我第一次清楚地感知到,通过对代码逐行逐字的检验以及屡次的debug,最终得到理想的输出,是一件很有成就感的事情。”谈起为计算计系“转身”的骆家睿,语气轻松却不乏坚定。
而计算机专业中最令骆家睿着迷的内容是大数据的分析与应用。他最早接触到大数据这个概念还是在高中的时候,那时“大数据时代”这个概念逐渐进入人们视野并不断发展为时代热词。“例如平日浏览网站时主页上根据个人喜好推送的视频,便是大数据中向量索引的一种应用。我对大数据无法避免地产生了浓厚的兴趣与无限的好奇心,我想知道这些企业是如何管理和使用这些数据,这些数据又是如何能够有效地被应用?”
在进入计算机系后,骆家睿了解到被誉为“基础软件皇冠上的明珠”的数据库远远比他曾经想象的中的复杂得多,这更加激发了他的求知欲:“在兴趣好奇的驱动下,我迎难而上,一头扎入大数据的怀里。”
大三学年成绩排名专业第一,当年累计绩点3.89,优秀的成绩背后,骆家睿有着自己一套独到范式:“自主学习能力是终生学习的基石”,骆家睿谈到,这使他能够主动去学习更多更深的知识,而不是限于课程内容或者老师给的课题,“做研究的能力与经验同样必不可少,这是如何了解、入手、思考学术前沿课题的不二法门;还有便是时间管理能力,在各种各样的事情与ddl中合理规划时间,一步一步完成一个又一个任务与目标,从而从容面对接下来的挑战。”
02
从初探推荐系统,
到勇夺世界第一。
“日新”的校训精神推动我探索未知领域。
骆家睿(左)与团队在研讨
初探计算机的世界,带着敏锐的洞察力和强烈的探知欲,骆家睿了解到视频网站精准推送离不开数据索引的推手。对大数据有着浓厚兴趣的他本着“日新”的校训精神,尝试着去实现更加高效的视频推荐算法。
而巧合的是,在2021年年初人工智能领域世界最顶尖会议NeurIPS组织了十亿级向量检索比赛。比赛还原微软、脸书等企业的真实业务场景,提供有史以来最大规模的数据集,采用微软研究院的研究成果作为对标方案。
对于骆家睿而言,这既是机遇也是挑战。在计算机系数据库课题组唐博老师和晏潇老师的指导下,他加入SUSTech代表队参与了这项比赛。他们的比赛任务是要在非常有限的内存空间上,利用大容量存储硬件SSD进行十亿级向量检索,并且需要在保证效率的同时,尽可能地提高检索地准确性(召回率)。
“那次比赛与我而言是完全是一片未知的领域”,骆家睿坦言,“而我们的竞争对手有来自英伟达、英特尔和雅虎等全球顶尖IT企业研究院的员工,也有来自清华大学等传统强校的研究生们。”
而面对如此强大的竞争对手,本着初生牛犊不怕虎的一股狠劲,骆家睿与队友迎难而上。此前从未接触过向量检索领域的知识,那就从“刷论文”开始去了解前沿技术的发展现状;不清楚理论是否理解透彻,那就花费加倍的时间和经历去写代码复现实验。在指导老师的引导下,骆家睿和团队的工作有了初步的进展。
在比赛过程中,因为查看不到其他队伍的工作进程,骆家睿和团队更加专注于完成自己的比赛任务,每天早起到实验室阅读论文,寻找任务代码中的Bug,时常为了debug会在实验室工作到深夜。他们的目标是要在比赛中提出一个索引方案,但是这个过程并非一帆风顺,最初他们基于微软先前的研究成果提出了一版方案,但效果不佳,在进行实验分析后发现,原来问题在于方案本身不符合SSD硬件特性,没有解决核心问题,即减少磁盘读取。发现并抓住了这个关键点,骆家睿开始尝试结合硬件特性重新设计新的索引方案。
在为期5个月的比赛中,骆家睿和团队对标业界最优方案,提出了SSD页对齐桶+桶上临近图搜索的方案,实现了标量量化以及python和c++之间的接口分工,将SSD的性能从16%提升至90%,一举夺得了比赛的“全球第一”,在业界中树立了新标杆。
NeurIPS组织十亿级向量检索比赛获奖证明
回忆起那一场别开生面的学术大赛,骆家睿笃定地说到,“大家不遗余力贡献智虑、勠力同心攻坚克难的氛围也感染了我,让我得以推出更为高效、值得被认可的方案。而最后拿冠军,也是对我们团队极大的肯定与鼓舞。”
03
从投稿顶级会议,
到落地工业产品。
“日新”的校训精神推动我探索未知领域。
“全球第一”的高光,给予了骆家睿在学术研究上充足的信心。在比赛结束后,他又和团队一鼓作气将比赛中提出的全新索引方案撰写成了论文,成功被数据库领域著名国际会议Very Large Data Base(VLDB)收录,并且收到收到评委们的高度评价:“该工作对业内数据库发展和演进有极大的启发和参考意义。”VLDB是数据库领域最顶尖的国际会议之一,是中国计算机学会推荐会议目录最高级CCF-A类,而被该会议收录的论文也是数据库未来技术的重要风向标。
就读于计算机专业的骆家睿深知这是一个应用性极强的学科,他认为只有将成果应用到实际的产品中,才能发挥它的作用和影响力。为了实现科研成果转化,骆家睿在老师的指导下积极与上海Zilliz公司的工作人员联系,对方案进行深层次的优化。
目前,成果已经成功落地在云原生向量数据库Milvus系统中,并被Ebay、腾讯、快手等国内外大型企业运用到相应的产品中,满足了互联网用户对获取信息的有效性和精准性的需求,为一些人工智能应用的实现提供了便利。
“苟日新,日日新,又日新”,骆家睿在以探索和实干诠释“日新”的校训精神的同时,也在以“日新”的标准要求自己。回望大学过往点点滴滴,骆家睿感慨万千,这一路有的不仅是熠熠闪光的荣誉,坎坷奋斗的汗水,更有师长同窗的温暖,勠力拓新的拼搏。“这一路走来,遇到了很多挑战,克服了诸多困难。很感谢所有给与我帮助的老师和同学,很感谢‘日新’的校训精神引领着我,在我迷茫和挫败时给我带来的勇气和斗志。”
未来,骆家睿将继续在计算机专业上学习深造,“在锻炼自己研究能力的同时,践行‘日新’的校训精神,时刻紧跟学术前沿,用自己的努力推动学术前沿发展与学术成果落地。”
推荐阅读
Hello SUSTech | 当南科春景与汉字相约
大榕树下·成长记 | 是舞台上的歌者,也是热爱编程的南科少年
南科课程 | 课堂的教具可以是游戏卡片,也可以是老师的电动车
--- 南方科技大学 ---
新媒体中心
来源:南科新知、南科大团委
采写:叶川、吴嘉恩、李泽
图片:受访者、王铭琬
编辑:杨奂彦
欢迎投稿、建议:
weixin@sustech.edu.cn